Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Relaterede dokumenter
1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Tema. Dagens tema: Indfør centrale statistiske begreber.

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Konfidensintervaller og Hypotesetest

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

1 Hb SS Hb Sβ Hb SC = , (s = )

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik kommandoer i Stata opdateret 22/ Erik Parner

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Epidemiologi og Biostatistik

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Morten Frydenberg Biostatistik version dato:

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Forelæsning 9: Inferens for andele (kapitel 10)

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

To-sidet varians analyse

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kapitel 12 Variansanalyse

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Hypotesetests, fejltyper og p-værdier

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Nanostatistik: Konfidensinterval

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Forsøgsplanlægning Stikprøvestørrelse

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Statistiske principper

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Vejledende besvarelser til opgaver i kapitel 14

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kapitel 12 Variansanalyse

Module 4: Ensidig variansanalyse

Eksamen i Statistik for biokemikere. Blok

StatDataN: Test af hypotese

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Om hypoteseprøvning (1)

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Produkt og marked - matematiske og statistiske metoder

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Nanostatistik: Test af hypotese

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Kapitel 7 Forskelle mellem centraltendenser

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Løsning eksamen d. 15. december 2008

Schweynoch, Se eventuelt

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Forelæsning 10: Statistik ved hjælp af simulering

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Preben Blæsild og Jens Ledet Jensen

Epidemiologi og Biostatistik

Opgavebesvarelse, Basalkursus, uge 3

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Transkript:

Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller Binomialfordelte data : eksakte sikkehedsintervaller Test i RxC tabeller Test i x tabeller Fishers eksakte test Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se ( θˆ for den ukendte størrelse, θ,som man er interesseret i. Et approksimativt 95% sikkerhedsinterval : θˆ±.9 se ( θˆ En specifik hypotese om at q = q 0 kan testes ved θˆ θ 0 θˆ θ 0 z = eller z = se( θˆ se( θˆ Store værdier af z (eller z er kritiske! p-værdi via standard normalfordeling eller c ( -fordeling Approksimation Den vender vi tilbage til! Nogle statistiske begreber Type fejl: At forkaste hypotesen, selvom den er sand. Type fejl: At acceptere hypotesen, selvom den er falsk. Signifikansniveau: Den grænse man sætter for den mindste p-værdi, der leder til at man accepterer hypotesen. Som regel sættes signifikansniveauet til 5%. Hvis hypotesen er sand: Sandsynligheden for type fejl =sandsynligheden for forkaste hypotesen =signifikansniveauet M.a.o. sandsynligheden for type fejl er kendt og lig signifikansniveauet (=5%. 3 Type fejl: At acceptere hypotesen, selvom den er falsk. Hvad er sandsynligheden for type fejl? Afhænger af: Hvad der så er sandt! Informationsmængden! Sandheden langt fra hypotesen fi lille ss. for type fejl Sandheden tæt på hypotesen fi stor ss. for type fejl Meget information/data fi lille ss. for type fejl Lidt information/data fi stor ss. for type fejl Statistisk styrke = - sandsynlighed for type fejl 4 Planlægning af et follow-up studie: Antagelser: KIP blandt ikke eksponerede = %. Sand relativ risiko =.0. 500 eksponerede og ikke eksponerede. 5 Øges deltagerantallet til *3000 bliver chancen for type fejl reduceret til % styrken er 89%. 00 Styrken som funktion af gruppe størrelsen : Two group test of equal proportions (odds ratio = (equal n's Æ = 0.050 ÒÁ= 0.00 ÒÂ= 0.00 Når data er indsamlet vil man teste hypotese RR=. Sandsynligheden for at få data, der leder til accept af dette (Type fejl = 39%, dvs en styrke på %. Mao. lille chance for at få bekræftet at der en sammenhæng. Ikke besværet værd! Power 90 80 70 0 50 000 500 000 500 3000 3500 Sample Size per Group

Afhænger af designet. Statistisk styrke Afhænger af statistisk metode. Relevant i planlægningsfasen. Når data er indsamlet er bredden af sikkerhedsintervaller udtryk for informationsmængden. 7 Simpel analyse af normalfordelte data Model/antagelse: Data er n uafhængige observationer fra en normalfordeling med ukendt middelvædi, µ, og spredning, σ. Estimaterne for disse er : n n µ ˆ = x = x ˆ ( i s i n σ = = n x x i= i= se( µ ˆ = se( x = σˆ n = s n Ofte kaldet sem,standard Error of the Mean Et eksakt CI for µ : x ± tn sem t n- findes i en tabel over t-fordelingen 8 3.5 3.0.5.0.5.0.5 0.0 9 Fødselsvægt for børn født af 7.gangsfødende n = 4 x = 3399g s = 4g 5.0 5.0 35.0 35.0 45.0 45.0 sem = s n = 4 4 = 7g Under antagelse af normalfordeling : x ±. sem Eksakt 95% CI for middelfødselsvægten: = 3399g ±. 7g Hvor kommer de. fra? = ( 307, 377 g Tabel over tosidige halesandsynligheder i t-fordelingen Bland side 58.3.7 3. 3..75..9 4.0.9 4.30 9.93 3.0 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.0 8. 9.73.09.8 3.88 5.0.57 4.03.87 0.7.09.85 3.85.94.45 3.7 5.9.7.08.83 3.8 7.89.3 3.50 5.4.7.07.8 3.79 8.8.3 3.3 5.04 3.7.07.8 3.77 9.83. 3.5 4.78 4.7.0.80 3.75 0.8.3 3.7 4.59 5.7.0.79 3.73.80.0 3. 4.44 30.70.04.75 3.5.78.8 3.05 4.3 40.8.0.70 3.55 3.77. 3.0 4. 0.7.00. 3.4 4.7.4.98 4.4 0..98. 3.37 5.75.3.95 4.07 Uendelig.4.9.58 3.9 95%=(00-5% n-=4-=3 frihedsgrader (degrees of freedom t=. Uendelig mange frihedsgrader = Standard normalfordeling 0 Simpel analyse af normalfordelte data One sample t-test Hypotese : µ= µ 0 Test : x µ 0 z = sem p-værdi: Slå op i en t-fordeling med n- frihedsgrader (ikke i en standard normalfordeling Eksemplet : Middelfødselsvægten er 3700g 3399 3700 z = =.75 Eksakt p-værdi=0.3% 7 Konklusion: Data strider ikke mod hypotesen. p-værdi vha. af tabel opslag z =.75.3.7 3. 3..75..9 4.0.9 4.30 9.93 3.0 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.0 8. 9.73.09.8 3.88 5.0.57 4.03.87 0.7.09.85 3.85.94.45 3.7 5.9.7.08.83 3.8 7.89.3 3.50 5.4.7.07.8 3.79 8.8.3 3.3 5.04 3.7.07.8 3.77 9.83. 3.5 4.78 4.7.0.80 3.75 0.8.3 3.7 4.59 5.7.0.79 3.73.80.0 3. 4.44 30.70.04.75 3.5.78.8 3.05 4.3 40.8.0.70 3.55 3.77. 3.0 4. 0.7.00. 3.4 4.7.4.98 4.4 0..98. 3.37 5.75.3.95 4.07 Uendelig.4.9.58 3.9 n-=4-=3 frihedsgrader (degrees of freedom z =.75 er lidt mindre end.77 p-værdien er derfor lidt større end 0%

Analyse af to sæt (uafhængige normalfordelte data Paritet n x s sem 8 35g 57g g 7 4 3399g 4g 7g Estimat for spredningen blandt 7. gangsfødende Estimat for spredningen blandt. gangsfødende 3 Estimat for fælles spredning: Nyt bud på sem erne: sem = sf n 8 = 3g Paritet n x s sem sem (fælles 8 35g 57g 3g g 7 4 3399g 4g 54g 7g sf sem = s n 4 = 54g 7 F 7 4 Et fælles estimat for spredningen : s F = ( n s + ( n s n + n 7 7 7 ( 8 57 + ( 4 4 = 8 + 4 se( x x = sem + sem = 3 + 54 = 05g 7 7 95% eksakt CI for forskel i middelfødselsvægt, µ - µ 7 : ( x x ± t se 7 ( x x7 = ( 35 3399 g ±.04 05g = ( 0, 34 g Fra t-fordeling med n +n 7 - frihedsgrader Tabel over tosidige halesandsynligheder i t-fordelingen 5 Analyse af to sæt (uafhængige normalfordelte data Two sample t-test.3.7 3. 3..75..9 4.0.9 4.30 9.93 3.0 7.74..90 3.97 3.35 3.8 5.84.9 8.73.0.88 3.9 4.3.78 4.0 8. 9.73.09.8 3.88 5.0.57 4.03.87 0.7.09.85 3.85.94.45 3.7 5.9.7.08.83 3.8 7.89.3 3.50 5.4.7.07.8 3.79 8.8.3 3.3 5.04 3.7.07.8 3.77 9.83. 3.5 4.78 4.7.0.80 3.75 0.8.3 3.7 4.59 5.7.0.79 3.73.80.0 3. 4.44 30.70.04.75 3.5.78.8 3.05 4.3 40.8.0.70 3.55 3.77. 3.0 4. 0.7.00. 3.4 4.7.4.98 4.4 0..98. 3.37 5.75.3.95 4.07 Uendelig.4.9.58 3.9 n +n 7 -=8+4-=30 frihedsgrader 95%=(00-5% z = ( x x7 δ0 se( x x µ - µ 7 = δ 0 7 p-værdi: Slå op i en t-fordeling med n +n 7 - frihedsgrader (ikke i en standard normalfordeling Eksemplet : Forskel i middelfødselsvægten er 0g ( 355 3399 0 0 z = = =.05 Eksakt p-værdi=30% 05 05 t=.04 Konklusion: Data strider ikke mod hypotesen. Kommentarer Hvis antagelsen om normalfordeling er rimelige : Fordelingen kan beskrive ved blot to tal : Middelværdi og spredning! Eksakte CI og p-værdier - ingen approksimationer! Også mulighed for at sammenligne spredninger (dækkes ikke på dette kursus Mere komplicerede modeller og analyse metoder : Variansanalyse (ANOVA Lineær regressionsmodeller Ikke-lineær regressionsmodeller Faktoranalyse +meget mere 7 Flere kommentarer Metoderne til analyse af en stikprøve fra en normalfordeling bruges ofte hvis man har parrede data: To målinger per patient, før/efter behandling Beregn efter-før=obs. behandlingseffekt Hvis disse kan antages at være normalfordelte så analyse som en stikprøve fra en normalfordeling Dette kaldes Parret t-test Hvordan checker man antagelsen om normalfordeling? Plot data - histogrammer, normal plots (Q-Q plots. Hvad siger erfaringen om tilsvarende data? 8 3

Komponenter i middelværdi og variation Altid mindst to komponenter i middelværdi og variation: Disse skyldes egenskaber ved populationen målemetoden Middelværdi = Middelværdi i populationen + Systematisk målefejl Variation = Variation i populationen + Tilfældig målefejl 9 Analyse af binomialfordelt data Data er binomialfordelt hvis : Uafhængige delforsøg Præcist to mulige udfald (dreng/pige, død/levende 3 Sandsynligheden for succes, π, er den samme for alle delforsøg. 4 Antal, n, delforsøg man betragter afhænger ikke af udfaldene. Eksempel : Antal drenge ud af 49 fødsler: ok? Enæggede tvillinger med? ok!! 0 3 ok 4 ok? Data indsamlet uden at snyde! Binomial fordelt data: x = antal succeser og n = antal observationer ukendt, men interessant π = sandsynlighed for succes x Estimation: πˆ= og se( πˆ = πˆ ( πˆ n n Approksimativt 95% CI : πˆ±.9 se( πˆ God approksimation hvis x og n-x ikke er for små Eksempel, Streptomycin, Bland Table 3.7 5 (=n personer deraf 3 (=x fået det bedre : 3 πˆ = = 0.87, se( πˆ = 0. 87 ( 0.87 5 = 0.0878 5 Approks. 95% CI: Dårlig approksimation! 0.87 ±.9 0.0878 = ( 0.95,.039 Ups! Eksakt/korrekt 95% CI ( findes vha. af tabel eller computer ( 0.594, 0.983 Morale: Hvis der er få eller mange hændelser, så er approksimationerne ikke gode! En 5 tabel Bland table 3.. Boligform og for tidlig fødsel : Housing tenure Preterm Term Total Owner-occupier 50 849 899 Council tenant 9 9 58 Private tenant 4 75 Lives with parents 7 Other 3 3 39 Total 99 344 443 Ingen sammenhæng Forventet antal preterm fødsler blandt de der bor i egen bolig : 99 899.7 443 = 3 Forventet under hvis hypotesen er sand: Housing tenure Preterm Term Total Owner-occupier.7 837.3 899 Council tenant 7.7 40.3 58 Private tenant.0 3.0 75 Lives with parents 4.9 7. 7 Other.7 3.3 39 Total 99.0 344.0 443 Et mål for forskel mellem observeret og forventet: X = alle celler ( observeret forventet forventet Er stor ved dårlig overensstemmelse! X = 0.5 4 4

Vi har fået X =0.5 Hvor ofte vil man få noget større? Slå op i en c -fordeling! Med (5-(-=4 frihedsgrader. Resultat p=0.03! Det var ikke særligt sandsynligt at få disse data hvis hypotesen er sand! Hypotesen forkastes! Bland side 33 : tabel over c -fordelingerne. Men kun udvalgte p-værdier 0, 5, og 0. %. 5% svarer til X =9.49 % til X =3.8 Dvs %<p-værdi<5% 5 Test for ingen association i R C tabeller Ingen sammenhæng melllem de to inddelingskriterier X rækkesum søjlesum forventet = total = alle celler En stor værdi af X er kritisk. ( observeret forventet forventet p-værdi findes i en c - fordeling med (R-(C- frihedsgrader. Test for ingen association i tabeller 7 Svangerskabs- Køn længde Dreng Pige Total 38 3 0 57 40 040 99 03 Total 35 35 07 Ingen sammenhæng mellem køn og svangerskabslængde Teststørrelsen kan let beregnes i hånden som: ( 3 99 0 040 07 X = =.40 < 3.84 57 03 35 5 p-værdi >0.05 Hypotesen kan accepteres! tabeller Status Population 0 a b n c d n s s 0 N Ingen association Test: ( a d b c N X = n n s s 0 Slåes op i en c -fordeling med frihedsgrad. 8 tabeller : Fishers eksakte test Amning og tandstilling: Ingen sammenhæng Problemer med tandstilling Amning Nej Ja Sum Bryst 4 0 Flaske Sum 5 37 4 For få data til at approksimationer kan bruges! Løsning: Fishers eksakte test (computer. Resultat (kun en p-værdi! Her: p-værdi=9% Konklusion: Data strider ikke mod : Ingen sammenhæng 9 Kommentarer til test for ingen association i tabeller Hvis der er 5 eller mindre i en af cellerne, så bør man bruge Fisher s eksakte test. Nogle anvender et kontinuitets (eller Yates korrigeret version af X - testet: ( a d b c N N X C = n n s s Det giver lidt større p-værdier. 0 Der er mange argumenter for og imod dette valg. Brug jeres tid på noget mere fornuftigt!!! 30 5